Le hasard de l'échantillonnage peut fausser les conclusions. Quatre situations doivent être envisagées :
Décision | H0 vraie | H0 fausse |
---|---|---|
H1 fausse | H1 vraie | |
H0 acceptée | 1-α (accepter H0 alors qu'elle est vraie) | β (accepter H0 alors qu'elle est fausse) |
Décision correcte | Erreur de 2eme espèce | |
H0 rejetée | α (rejet de H0 alors qu'elle est vraie) | 1-β (rejet de H0 alors qu'elle est fausse) |
Erreur de 1ere espèce | Décision correcte |
Dans le premier et le dernier cas (accepter l'hypothèse nulle alors qu'elle est vraie et la rejeter alors qu'elle est fausse), la conclusion obtenue est correcte, mais non dans les deux cas intermédiaires (accepter l'hypothèse nulle alors qu'elle est fausse et la rejeter alors qu'elle est vraie).
L'erreur qui consiste à rejeter H0 alors qu'elle est vraie (faux négatif) est appelée erreur de première espèce α et est choisie arbitrairement.
On se donne une limite supérieure du risque de première espèce α, le plus souvent 5% (significatif), 1% (très significatif) ou 0,l% (hautement significatif). Cette limite constitue aussi le niveau de signification du test et permet de définir la condition de rejet de l'hypothèse nulle.
Remarquons que plus nous effectuons d'analyses sur des données particulières, plus nous obtiendrons de résultats atteignant le niveau de signification du test « par chance ». Par exemple, en calculer les corrélations possibles entre dix variables différentes (ex : pression sanguine, taille, poids, taux de globules blancs, longueur des cheveux, pointure, âge, ...) aboutit à C102 = 45 coefficients de corrélation différents. On peut s’attendre à trouver environ deux coefficients de corrélations (c'est-à-dire environ 5% de 45) significatifs au seuil &alpha = 0,05 imputables à la chance, même si les valeurs des variables ont été choisies totalement au hasard et si ces variables ne sont pas corrélées dans la population.
Par conséquent, il convient d'analyser avec précaution les résultats inattendus.
Idéalement, α et β devraient être déterminés par l'expérimentateur préalablement à la recherche, ce qui détermine la taille de l'échantillon n. Une diminution du risque α, augmente le risque β pour tout échantillon donné. La probabilité de commettre l'erreur de seconde espèce β décroît lorsque la taille n de l'échantillon augmente.
Alors que l'hypothèse nulle H0 est unique (μ1 = μ2 ⇔ μ1 - μ2 = 0), l'hypothèse alternative H1 correspond à une infinité de situations (μ1 ≠ μ2 ⇔ μ1 - μ2 = D où D peut prendre n'importe quelle valeur. Le risque β ne peut donc être déterminé que pour une certaine valeur de D, correspondant à une hypothèse H1 particulière.
Dans ce cadre, l'erreur de seconde espèce peut être interprétée comme la probabilité qu'un échantillon provienne d'une autre population dont la distribution est différente.
Remarquons que cette erreur β n'est quantifiable que si l'on connaît la distribution alternative (comme représenté sur la figure). Or, en pratique, cette distribution est, la plupart du temps, inconnue et il n'est dès lors pas possible de quantifier (ou borner) cette erreur.